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Precede de reconnaissance vocale avec correction automafique 

La presents invention concerne un procede de reconnaissance 
vocale avec correction automatique dans les syst§mes de reconnaissance 
5 vocale a syntaxe contrainte. c'est-^-dlre que les phrases reconnaissables se 
trouvent dans un ensemble de possibilites determinees. Ce proced§ est 
particulldrement adapte a la reconnaissance vocale en milieu bmite, par 
exemple dans les cockpits d'avlons d'arme ou civil, dans les helicopt^res ou 
dans ('automobile. 

10 De nombreux travaux dans ie domains de la reconnaissance 

vocale a syntaxe contrainte ont pennis d'obtenir des taux de reconnaissance 
de Pordre de 95%, et ce, meme dans I'enyironnement bruite d'un cockpit 
d'avion d'arme (environ 100-110 dBA autour du casque du pHote). 
Cependant. cette perfonmance n'est pas suffisante pour faire de la 
15 commande vocale un m§dia de comma nde primaire pour des paramdtres 
critiques du point de vue de la s^curite de vol. 

Une strategie utilisee conslste a soumettre les commandes 
critiques a une validation du pilote. qui verifle par la phrase reconnue, que les 
bonnes valeurs vont §tre affectees aux bons parametres (« feedback 
20 primaire »). En cas d'erreur du systems de reconnaissance - ou erreur de 
prononciation du pilote - Ie pilote doit enoncer ^ nouveau toute la phrase, et 
la probability d'erreur sur la reconnaissance de la phrase a nouveau 
prononc6e est la m§m6. Ainsi par exemple. si Ie pilote enonce « Select 
altitude two five five zero feet », Ie systeme effectue les algorithmes de 
25 reconnaissance et donne un retour visuel au pilote. En envisageant Ie cas oCi 
une en-eur se prodult, Ie systeme va par exemple proposer « SEL ALT 2 5 9 
0 FT ». Dans un systeme classlque, Ie pilote doit alors prononcer de nouveau 
toute la phrase, avec les mgmes probabillt^s d'erreur. 

Un systeme de correction d'erreur meilleur en terme de taux de 
30 reconnaissance conslste a faire prononcer au pilote une phrase de correction 
qui sera reconnue comme telle. Par exemple, si l*on reprend I'exemple 
precedent, Ie pilote pourra prononcer « Correction third digit five ». 
Cependant cette methode augments la charge de travail du pilote dans Ie 
procede de reconnaissance, ce qui n'est pas souhaitable. 

L'invention propose un proced6 de reconnaissance vocale qui met 
en oeuvre une correction automatique de la phrase prononc^e permettant 
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d'obtenir un taux de reconnaissance proche de 100%, sans augnnentation de 
la charge du pilote. 

Pour cela, I'invention concerne un precede de reconnaissance 
vocale d'un signal de parole prononce par un locuteur avec correction 
5 automatlque, comprenant notamment une etape de traitement dudit signal de 
parole delivrant un signal sous une forme compress6e, une etape de 
reconnaissance de formes pour rechercher, ^ partir d'une syntaxe 
pr^enregistree lors d'une phase prealable, une phrase de ladite syntaxe la 
plus proche dudit signal sous sa forme compresses, et caract6rlse en ce qu'il 
10 comprend 

- la memorisation du signal sous sa forme compressee, 

- la generation d'une nouvelle syntaxe dans laquelle ladite 
phrase determinee lors de Tetape de reconnaissance 
anterieure est supprimee, 

15 - \a reiteration de Tetape de reconnaissance de formes pour 

rechercher, a partir de la nouvelle syntaxe, une autre phrase la 
plus proche dudit signal memorise. 

D'autres avantages et caracteristiques apparaTtront plus 
20 clairement a la lecture de la description qui suit, illustr^e par les figures 
annexees qui repr§sentent : 

- la figure 1, le schema de principe d'un systeme de 
reconnaissance vocale de type connu; 

- ia riyuio 2. le oCuoma d'un systems de rsccnnaissance vocale 
25 du type de celui de la figure 1 mettant en ceuvre le procede 

selon I'invention ; 

- la figure 3, un schema illustrant la modification de la syntaxe 
dans le procede selon Tinvention. 

Sur ces figures, les elements identiques sont references par les 
30 memes reperes. 

La figure 1 presente le schema de principe d'un systeme de 
reconnaissance vocale a syntaxe contrainte de type connu, par exemple un 
systeme embarqu§ dans un envfronnement tortement bruifeT^Dans uTT 
systeme a syntaxe contrainte mono locuteur, une phase d'apprentissage 
~35 hors temps reel permet a un locuteur donne d'enregistrer un ensemble de 
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r§f6rences acoustiques (mots) stockes dans un espace de references 10. La 
syntaxe 11 est form^e d'un ensemble de phrases qui representent 
I'ensemble des chemins ou transitions possibles entre les differents mots. 
Typiquement, quelques 300 mots sont enregistres dans ('espace de 
5 ref6rBnce qui fomnent typiquement 400 000 phrases possibles de la syntaxe. 

Classiquement, un syst§me de reconnaissance vocale comporte 
au moins trois blocs comme illustr§ sur la figure 1. II comporte un bloc 12 
d'acquisition du signal de parole (ou prise de son), un bloc 13 de traitement 
du signal et un bloc 14 de reconnaissance de formes. Une description 
10 detainee de I'ensemble de ces blocs selon un mode de realisation se trouve 
par exemple dans la demande de brevet frangais FR 2 808 917 au nom de la 
deposante. 

De fagon connue. le signal acoustique traite par le bloc de prise de 
son 12 est un signal de parole capte par un transducteur electroacoustique. 

15 Ce signal est numerise par echantillonnage et decoupe en un certain nombre 
de trames recouvrantes ou non, de meme duree ou non. Dans le bloc 13 de 
traitement du signal, on assocle classiquement chaque trame a un vecteur 
de parametres qui traduit I'information acoustique contenue dans la trame. II 
y a plusleurs methodes pour determiner un vecteur de parametres. Un 

20 exemple classique de m^thode est celle qui utilise les coefficients cepstraux 
de type MFCC (abr6viation de I'expression anglo-saxonne « Mel Frequency 
Cepstral Coefficients). Le bloc 13 pemiet de determiner dans un premier 
temps I'energie spectrale de chaque trame dans un certain nombre de 
canaux fr§quentiels ou fen§tres. II d6livre pour chacune des trames une 

25 valeur d'energie spectrale ou coefficient spectral par canal fr6quentiel. II 
effectue ensuite une compression des coefficients spectraux obtenus pour 
tenir compte du comportement du systeme auditif humain. 11 effectue enfin 
une transformation des coefficients spectraux compresses, ces coefficients 
spectraux compresses transformes sont les parametres du vecteur de 

30 parametres recherche. 

Le bloc 14 de reconnaissance de formes est relie a I'espace de 
references 10. II compare la serie des vecteurs de parametres issue du bloc 
de traitement du signal aux references obtenues lors de la phase 
d'apprentissage, ces references traduisant les emprelntes acoustiques de 

35 chaque mot, chaque phoneme, plus generalement de chaque. commande et 
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que I'on appellera de fa5on generique « phrase » ' dans la suite de la 
description. Puisque la reconnaissance de formes s'effectue par 
comparaison entre vecteurs de parametres, on doit avoir ^ disposition ces 
vecteurs de parametres de base. On les obtient de la meme maniere que 
5 pour les trames de signal utile, en calculant pour chaque trame de base son 
energie spectrale dans un certain nombre de canaux frequentiels et en 
utillsant des fenStres de ponderatlon identlques. 

A Tissue de la dernlere trame, ce qui conrespond generalement a la fin 
d'une commande, la comparaison donne soit une distance entre la 

10 commande testee et des commandes de r§f6rence, la commande de 
r6f§rence presentant la distance la plus faible est reconnue, soit une 
probabilite pour que la s6rie des vecteurs de parametres appartiennent d une 
suite de phonemes. Les algorithmes classiquement utilises pendant la phase 
de reconnaissance de formes sont dans le premier cas de type DTW 

15 (abreviation de I'expression anglo-saxonne pour Dynamic Time Warping) ou, 
dans le second cas de type HMM (abreviation de I'expression anglo-saxonne 
Hidden Markov Models). Dans le cas d'un algorithme de type HMM. les 
references sont des fonctions gaussiennes associees chacune a un 
phoneme et non a des series de vecteurs de parametres. Ces fonctions 

20 gaussiennes sont caracterisees par leur centre et leur ecart-type. Ce centre 
et cet ecart type dependent des parametres de toutes les trames du 
phoneme, c'est a dire des coefficients spectraux compresses de toutes les 
trames du phoneme. 

i-es signaux numeriques representant une phase reconnue sont 
25 transmis S un dispositif 15 qui realise le couplage avec I'envlronnement par 
exemple par afflchage de la phrase reconnue sur le viseur t§te haute d'un 
cockpit d'avion. 

Comme cela a §te prec§demment explique, pour les commandes 
critiques, le pilote peut avoir S sa disposition un bouton de validation 
30 permettant Texicution de la commande. Dans le cas oD la phrase reconnue 
serait erronee, il doit generalement r^peter la phrase avec une probability 
identique d'erreur. 

Le precede selon I'invention permet une correction automatique 
de grande efficacite et simple a mettre en oeuvre. Son implantation dans un 
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systeme de reconnaissance vocale du type de ia figure 1 est schematises 
sur ia figure 2. 

Selon I'invention, d I'issu de ia pliase de traitennent du signai 13, 
on memorise (etape 16) ie signal de paroie sous sa forme compressee 
(ensemble des vecteurs de parametres 6galement appeles « cepstres »). 
Des qu'une plirase est reconnue, on g6n§re une nouvelle syntaxe (etape 17) 
dans laqueile la piirase reconnue n'est plus un chemin possible de ia 
syntaxe. On reitere alors ia phase de reconnaissance de formes avec Ie 
signal m6morise mais sur la nouvelle syntaxe. Pr6f§rentiellement, la 
reconnaissance de formes est reiter^e de maniere systematique pour 
preparer une autre solution possible. SI ie piiote d6tecte une erreur dans la 
commande reconnue. ii appule par exemple sur un bouton sp6cifique de 
correction, ou exerce un appui court ou un double die sur I'alternat de 
commande vocale et Ie systeme lui propose la nouvelle solution trouv6e lors 
de ia reiteration de la reconnaissance de formes. On reitere les stapes 
precedentes pour generer de nouvelles syntaxes qui interdisent toutes les 
solutions precedemment trouvees. Quand Ie piiote voit la solution qui 
correspond reellement a ia phrase ^noncee, ii valide par un moyen 
quelconque (bouton, voix, etc.). 

Reprenons i'exemple cite precedemment en tirant benefice de 
I'invention. Le piiote §nonce selon cet exemple « Select altitude two five five 
zero feet ». Le systeme effectue les algorithmes de reconnaissance et, par 
exemple S cause du bruit amblant. reconnaTt « Select altitude two five nine 
zero feet ». Un feedback visuel est donne au piiote : « SEL ALT 2 5 9 0 FT ». 
Alors que le locuteur est en train de lire la phrase reconnue, le systdme 
anticipe une eventuelle en-eur en g§n§rant de fagon automatique une 
nouvelle syntaxe dans laqueile la phrase reconnue est supprim§e et en 
reiterant I'etape de reconnaissance de formes. 

La figure 3 IKustre par un schema simple, dans le cas de I'exemple 
precedent, la modification de la syntaxe permettant avec un algorithme de 
reconnaissance de formes de type DTW la recherche d'une nouvelle phrase. 
La phrase enoncee par le locuteur selon I'exemple prec^dente est « SEL 
ALT 2 5 5 0 FT ». Nous supposons que la phrase reconnue par la premiere 
phase de reconnaissance de formes est « SEL ALT 2 5 9 0 FT». Cette 
premiere phase fait appelle a la syntaxe d'origlne SYNT1, dans laqueile 
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toutes les combinaisons (ou chemins) sont possibles pour les quatre chiffres 
^ reconnaitre. Lors d'une deuxieme phase de reconnaissance de formes, la 
phrase reconnue est 6cartee des combinaisons possibles, modifiant ainsi 
I'arbre syntaxique comme cela est illustre sur la figure 3. Une nouvelle 
5 syntaxe est gen6ree qui interdit le chemin correspondant ^ la solution 
reconnue. Une deuxieme phase est alors reconnue. La phase de 
reconnaissance de formes peut §tre r§it6ree avec, d chaque fois. generation 
d'une nouvelle syntaxe qui reprend la syntaxe pr§c6dente mais dans laquelle 
est supprim6e la phrase pr6c§demment trouvee. 

■•0 Dans un mode de fonctionnement possible, le pilote indique au 

systeme qu'il desire une correction (par exemple par un appul court de 
I'alternat commande vocale) et dds qu'une nouvelle solution est disponlbie, 
elle est affichee. La recherche automatique d'une nouvelle phrase s'an-§te 
par exemple lorsqu'une phrase reconnue est validee par le pilote. Dans notre 

15 exemple, il est probable que des la deuxieme phase de reconnaissance de 
formes, le pilote voit « SEL ALT 2 5 5 0 FT ». II peut alors valider la 
commande. Dans la mesure ou de nombreuses erreurs de reconnaissance 
sont dues a des confusions entre des mots proches (par exemple, five-nine), 
I'invention permet de corriger presque a coup sur ces erreurs avec un 

20 minimum de charge de travail supplementaire pour le pilote et de fagon tres 
rapide du fait de I'anticipation sur la correction que peut effectuer le precede 
seion I'invention. 

En outre, en gdnerant une nouvelle syntaxe et en r6lterant I'etape 
dtf rdcdnriaissance de fdrnies sur ia nouvelle syntaxe, on n'accroTt pas la 
25 complexlte de I'arbre syntaxique. L'algorithme de traltement peut done 
effectuer la reconnaissance avec un delai similaire a chaque Iteration, ce 
delai etant imperceptible pour le pilote du fait de I'anticipation de la 
correction. 
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REVENDICATIONS 

1- Precede de reconnaissance vocale d'un signal de parole 
prononce par un locuteur avec correction automatique, comprenant 

5 notamment une 6tape (13) de traitement dudit signal de parole delivrant un 
signal sous une forme compressee, une §tape (14) de reconnaissance de 
formes pour recherclier, S partir d'une syntaxe (SYNT1) pr6enregistree lors 
d'une phase prealable, une phrase de ladite syntaxe la plus proche dudit 
signal sous sa forme compressee, et caracteris6 en ce quMI comprend 

10 - la memorisation (16) du signal sous sa forme compressee, 

- la generation (17) d'une nouvelle syntaxe (SYNT2) dans 
laquelle ladite phrase determlnee lors de Tetape de 
reconnaissance anterieure est supprimee, 

- la reiteration de I'etape de reconnaissance de formes pour 
15 rechercher, a partir de la nouvelle syntaxe, une autre phrase la 

plus proche dudit signal memorise. 

2- Precede de reconnaissance vocale selon la revendication 1, 
caracterise en ce que la recherche d'une nouvelle phrase est reiteree de 
fagon systematique pour anticlper la correction. 

20 3- Precede de reconnaissance vocale selon la revendication 2, 

caracterise en ce que chaque nouvelle phrase reconnue est proposee au 
locuteur sur sa demande. 

4- Precede de reconnaissance vocale selon Tune des 
revendications 2 ou 3, caracterise en ce que la recherche d'une nouvelle 

25 phrase est stoppee par validation d'une phrase reconnue par le locuteur 

5- Procede de reconnaissance vocale selon Tune des 
revendications precedentes. caracterise en ce que Tetape (13) de traitement 
comprend : 

- une etape de numerisation et de decoupage en une suite de 
30 trames temporelles dudit signal acoustique, 

- une phase de parametrisation de trames temporelles 
contenant de la parole de maniere a obtenir, par trame, un 
vecteurde parametres dans le domalne frequentiel, I'ensemble 
de ces vecteurs de parametres formant ledit signal sous sa 

35 forme compressee. 
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6- Precede de reconnaissance vocale selon la revendication 5, 
caracterise en ce que la reconnaissance de forme fait appel ^ un algorithme 
de type DTW. 

7- Precede de reconnaissance vocale selon la revendication 5, 
caract6rls§ en ce que la reconnaissance de fonne fait appel a un algorithme 
de type HMM. 
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